Statistical risk assessments inform consequential decisions such as pretrial release in criminal justice, and loan approvals in consumer finance. Such risk assessments make counterfactual predictions, predicting the likelihood of an outcome under a proposed decision (e.g., what would happen if we approved this loan?). A central challenge, however, is that there may have been unmeasured confounders that jointly affected past decisions and outcomes in the historical data. This paper proposes a tractable mean outcome sensitivity model that bounds the extent to which unmeasured confounders could affect outcomes on average. The mean outcome sensitivity model partially identifies the conditional likelihood of the outcome under the proposed decision, popular predictive performance metrics (e.g., accuracy, calibration, TPR, FPR), and commonly-used predictive disparities. We derive their sharp identified sets, and we then solve three tasks that are essential to deploying statistical risk assessments in high-stakes settings. First, we propose a doubly-robust learning procedure for the bounds on the conditional likelihood of the outcome under the proposed decision. Second, we translate our estimated bounds on the conditional likelihood of the outcome under the proposed decision into a robust, plug-in decision-making policy. Third, we develop doubly-robust estimators of the bounds on the predictive performance of an existing risk assessment.
translated by 谷歌翻译
数据同化(DA)是科学和工程中许多预测模型的关键组成部分。 DA允许使用系统的不完善动力学模型以及系统可用的嘈杂/稀疏观测来估算更好的初始条件。集合Kalman滤波器(ENKF)是一种DA算法,该算法广泛用于涉及高维非线性动力学系统的应用中。但是,ENKF需要使用系统的动力学模型来进化的大型预测集合。这通常在计算上棘手,尤其是当系统的状态数量很大时,例如天气预测。在小合奏的情况下,ENKF算法中的估计背景误差协方差矩阵患有采样误差,导致分析状态的错误估计(下一个预测周期的初始条件)。在这项工作中,我们提出了混合集合卡尔曼滤波器(H-ENKF),该滤波器被应用于两层准地球体流动系统作为测试案例。该框架利用了预先训练的基于学习的数据驱动的替代物,该替代物可廉价地生成和进化系统状态的大型数据驱动的集合,以准确计算背景错误协方差矩阵,而采样误差较少。 H-ENKF框架估算了更好的初始条件,而无需任何临时本地化策略。 H-ENKF可以扩展到任何基于集合的DA算法,例如粒子过滤器,这些粒子过滤器目前难以用于高维系统。
translated by 谷歌翻译
转移学习(TL)已成为神经网络(NNS)的科学应用中的强大工具,例如天气/气候预测和湍流建模。 TL可以实现分布的概括(例如,参数外推)和有效的不同训练集(例如,模拟和观察值)的有效混合。在TL中,使用目标系统中的小数据集对已经训练的基础系统进行了训练的NN的选定层。对于有效的TL,我们需要知道1)重新培训的最佳层是什么? 2)在TL期间学到了哪些物理学?在这里,我们提出了新的分析和一个新的框架,以解决(1) - (2)的多种多数非线性系统。我们的方法将系统数据的光谱分析与卷积NN激活和内核的光谱分析相结合,从系统的非线性物理学来解释了TL的内部工作。使用几种2D湍流设置的亚网格尺度建模作为测试用例,我们表明,学习的内核是低,带和高通滤波器的组合,并且TL学习了新的过滤器,其性质与光谱差异一致基础和目标系统。我们还发现,在这些情况下,最浅的层是重新培训的最佳层,这违背了机器学习文献中指导TL的共同智慧。我们的框架根据物理和NN理论确定了事先重新训练的最佳层。这些分析共同解释了在TL中学到的物理学,并提供了一个框架,以指导TL,以在科学和工程中进行广泛的应用,例如气候变化建模。
translated by 谷歌翻译
败血症是危及生命的医疗紧急情况,这是全世界死亡的主要原因,也是美国死亡率的第二大原因。研究综合脓毒症系统的最佳控制处理或干预策略是降低死亡率的关键。为此目的,首先,本文提高了我们以前的工作中提出的复杂非线性败血症模型。然后,为每个SEPSIS子系统进行分叉分析,以研究某些系统参数下的模型行为。分叉分析结果还进一步表明了控制治疗和干预治疗的必要性。如果SEPSIS系统在某些参数和初始系统值设置下没有添加任何控件,系统将随着时间的推移而进行持续存在的炎症结果。因此,我们将复杂的改进的非线性败血症模型发展成败血症最优控制模型,然后使用现有诊所实践建议的一些有效的生物标志物作为衡量败血症的发展的优化目标函数。除此之外,还引入了通过组合反复性神经网络(RNN-BO算法)的贝叶斯优化算法来预测研究的败声最优控制系统的最佳控制策略。来自其他优化算法的RNN-BO算法之间的差异是,一旦给定任何新的初始系统值设置(初始值与患者的初始条件相关),则RNN-BO算法能够快速预测相应的时间序列基于任何新败血症患者的历史最佳控制数据的最佳控制。为了证明RNN-BO算法在复杂非线性SEPSIS系统上解决最佳控制解决方案的效力和效率,通过与本文中的其他优化算法进行比较来实现一些数值模拟。
translated by 谷歌翻译
贝叶斯优化算法已成为非线性全球优化问题和许多机器学习应用的有希望的方法。在过去的几年里,提出了改进和增强,他们已经提出了一些有希望的结果,在解决复杂的动态问题,客观函数计算昂贵的普通微分方程的系统来评估。此外,贝叶斯优化算法的直接实现仅适用于10-20维度的优化问题。本文提出的研究提出了一种新的高维贝叶斯优化算法,其结合了经常性神经网络,预计将预测高维或时间序列决策模型的全局优化问题的最佳解决方案。所提出的RNN-BO算法可以解决较低尺寸空间中的最佳控制问题,然后使用经常性神经网络从历史数据学习,以了解历史最佳解决方案数据,并预测任何新的初始系统值设置的最佳控制策略。此外,准确且快速地提供最佳控制策略对于有效和有效地控制疫情,同时最小化相关的财务成本至关重要。因此,为了验证所提出的算法的有效性,对确定性SEIR流行病模型和随机SIS最优控制模型进行计算实验。最后,我们还讨论了不同数量的RNN层和培训时代对解决方案质量与相关计算努力之间的权衡的影响。
translated by 谷歌翻译